离散程度的度量总结 - 极差、四分位距与百分位距
离散程度的度量是描述数据分散程度的指标,也称为"离散度(dispersion)"或"变异度(variation)"的度量。
关键关系:离散程度度量反映数据的分散性,数值越大表示数据越分散,数值越小表示数据越集中。
特点:考虑所有数据,但受极端值影响大。
特点:仅考虑中间50%的数据,不受极端值影响。
定义:两个给定百分位数的差值(如10th到90th百分位距)。
特点:考虑某一区间内的数据,不受极端值影响。
数据:1, 2, 3, 4, 5, 6, 7, 8, 9, 100
• 极差:100 - 1 = 99(受极端值100影响)
• 四分位距:7.5 - 3.5 = 4(不受极端值影响)
• 10th到90th百分位距:9 - 1.9 = 7.1(部分受极端值影响)
非洲丛林象体重分组:4.0-4.5(13), 4.5-5.0(23), 5.0-5.5(31), 5.5-6.0(34), 6.0-6.5(19)
累计频率:13, 36, 67, 101, 120
• 极差:6.5 - 4.0 = 2.5 吨
• 四分位距:\( Q_3 - Q_1 = 5.84 - 4.87 = 0.97 \) 吨
• 10th到90th百分位距:\( P_{90} - P_{10} = 6.18 - 4.46 = 1.72 \) 吨
掌握离散程度度量是描述性统计的重要工具,它为后续的箱线图、异常值检测和统计推断提供了基础。
很多学生会认为极差总是最好的度量,但实际上当数据有异常值时,四分位距更能反映数据的真实分散程度。
长远价值:掌握离散程度度量是统计学的重要基础,它为后续的箱线图、异常值检测、统计推断和假设检验提供了基本工具。通过练习可以培养数据分析和统计思维,为后续学习统计学做好准备。